微软| 搞定长时程、跨应用的Agent,竟然只靠<20%的摘要记忆,反超全文投喂
微软| 搞定长时程、跨应用的Agent,竟然只靠<20%的摘要记忆,反超全文投喂作为大家的测评博主,我最近发现一个巨有意思的现象: 现在市面上大部分评估 Agent 的基准测试,倾向于考核“单项技能”,而非“综合任务”。比如,你让 AI 点份外卖,它能完成;但如果要求它策划一场涵盖预算、选址、菜单、宾客邀请与流程安排的晚宴,它很可能就原地就 G 了。
作为大家的测评博主,我最近发现一个巨有意思的现象: 现在市面上大部分评估 Agent 的基准测试,倾向于考核“单项技能”,而非“综合任务”。比如,你让 AI 点份外卖,它能完成;但如果要求它策划一场涵盖预算、选址、菜单、宾客邀请与流程安排的晚宴,它很可能就原地就 G 了。
8月18日,医疗AI企业惠每科技宣布完成近2亿元人民币融资。本轮融资由上海国资上海科创基金及钟鼎资本共同领投,启明创投继续加持、长宁资本以虹桥睿智投资平台进行跟投。
由中国人工智能学会主办的2025第三届全国人工智能应用场景创新挑战赛AI Agent全球专项赛启动仪式在香港科技大学(广州)举办。这场被业界誉为“AI Agent 元年英雄时代开幕盛典”的盛会,以吴恩达、 尤肖虎、周鸿祎、杨宁、朱啸虎、徐飚、缪玉峰 七位全球各自领域领袖对大赛的祝福视频震撼开场,为大赛全球参赛团队注入强心剂!
真正的 AI 系统不是一个 Chat 窗口,而是一个智能的工作现场。 工具越多,效率反而越低?一项来自《哈佛商业评论》的调查显示,员工每天平均切换应用程序超过 1200 次,一年下来累计浪费的时间高达 5 个完整工作周,占全年总工作时间的 9%。
2025 年,人工智能的叙事已经不再靠“模型突破”来驱动,而是进入了“应用激战区”。 硅谷著名孵化器 Y Combinator 在官网上直言——“2025 年有望成为 AI Agent 之年。”
前几天发现一个有意思的应用 Macaron,靠颜值就吸引了我,整个设计风格非常的阳光而且高级,尤其是里面的图标,很好看。
近半年,Agentic AI 创新步伐明显加快。更强的自主决策、更丰富的多模态融合,以及与外部系统的深度协作,正推动产品加速落地与商业化。
视频Agent生成过程中顶多也就是让我点点选项,或者直接针对某一处不满意的地方用对话形式修改,甚至可能我提了一个意见,直接整个片子都给我换了个不一样的。
2025年被视为 AI Agent元年,各家科技巨头也纷纷出手,谁都不想错失这个火热的赛道。
年初,DeepSeek 前脚带来模型在推理能力上的大幅提升,Manus 后脚就在全球范围内描绘了一幅通用 Agent 的蓝图。新的范本里,Agent 不再止步于答疑解惑的「镶边」角色,开始变得主动,拆解分析需求、调用工具、执行任务,最终解决问题……